昨天已經提及大數據處理的前兩個步驟:數據的收集及數據的儲存與管理,接著要探討接下來的三個步驟
數據的處理分析
分佈式處理方式是大數據處理各環節的通用處理方法。列舉幾個常見的處理分析平台:
(1) Apache Spark:Spark使用記憶體內的運算技術,不同於 Hadoop 的 MapReduce 會在執行完工作後將中介資料存放到磁碟中。且Spark 在記憶體內執行程式的運算速度比 Hadoop的運算速度快上 100 倍,即便是執行程式於硬碟時,Spark 也能快上 10 倍速度。
(2) Hadoop:Hadoop 的兩大主要功能是儲存(Store)及處理(Process)
數據的開放
數據的應用
將數據圖表化,讓人們更能理解圖表的意義,更能加強對數據處理的效率。
Jupyter就是一個數據可是化的一個工具,其透過十多種編譯程式實現大數據分析、數據圖像化的目標。
資料來源:
https://zhuanlan.zhihu.com/p/35893829
https://www.inside.com.tw/2015/03/19/big-data-5-must-have-skills